智能论文笔记

Fracture Detection in Wrist X-ray Images Using Deep Learning-Based Object Detection Models

Fırat Hardalaç , Fatih Uysal , Ozan Peker , Murat Çiçeklidağ , Tolga Tolunay , Nil Tokgöz , Uğurhan Kutbay , Boran Demirciler , Fatih Mert

分类：计算机视觉 | 机器学习

2021-11-14

腕骨骨折是医院的常见情况，特别是在紧急服务中。医生需要来自各种医疗设备的图像，以及患者的病史和身体检查，正确诊断这些骨折并采用适当的治疗。本研究旨在使用腕X射线图像的深度学习进行骨折检测，以帮助专门在现场专门的医生，特别是在骨折的诊断中工作。为此目的，使用从Gazi大学医院获得的腕X射线图像数据集的基于深度学习的物体检测模型来执行20个不同的检测程序。这里使用了DCN，动态R_CNN，更快的R_CNN，FSAF，Libra R_CNN，PAA，RetinAnet，Regnet和具有各种骨架的基于SABL深度学习的物体检测模型。为了进一步改进研究中的检测程序，开发了5种不同的集合模型，后来用于改革集合模型，为我们的研究开发一个独一无二的检测模型，标题为腕骨骨折检测组合（WFD_C）。根据检测到总共26种不同的骨折，检测结果的最高结果是WFD_C模型中的0.8639平均精度（AP50）。本研究支持华为土耳其研发中心，范围在持续的合作项目编码071813中，华为大学，华为和Medskor。

translated by 谷歌翻译

Disentangling Content and Motion for Text-Based Neural Video Manipulation

Levent Karacan , Tolga Kerimoğlu , İsmail İnan , Tolga Birdal , Erkut Erdem , Aykut Erdem

分类：计算机视觉

2022-11-05

Giving machines the ability to imagine possible new objects or scenes from linguistic descriptions and produce their realistic renderings is arguably one of the most challenging problems in computer vision. Recent advances in deep generative models have led to new approaches that give promising results towards this goal. In this paper, we introduce a new method called DiCoMoGAN for manipulating videos with natural language, aiming to perform local and semantic edits on a video clip to alter the appearances of an object of interest. Our GAN architecture allows for better utilization of multiple observations by disentangling content and motion to enable controllable semantic edits. To this end, we introduce two tightly coupled networks: (i) a representation network for constructing a concise understanding of motion dynamics and temporally invariant content, and (ii) a translation network that exploits the extracted latent content representation to actuate the manipulation according to the target description. Our qualitative and quantitative evaluations demonstrate that DiCoMoGAN significantly outperforms existing frame-based methods, producing temporally coherent and semantically more meaningful results.

translated by 谷歌翻译

Unsupervised Simplification of Legal Texts

Mert Cemri , Tolga Çukur , Aykut Koç

分类：自然语言处理 | 人工智能 | 机器学习

2022-09-01

法律文本的处理一直是自然语言处理（NLP）的新兴领域的发展。法律文本包含词汇，语义，语法和形态中的独特术语和复杂的语言属性。因此，对于法律领域特定的文本简化（TS）方法的开发对于促进普通人理解法律文本并为主流法律NLP应用程序的高级模型提供投入至关重要。尽管最近的一项研究提出了一种基于规则的TS法律文本方法，但以前尚未考虑法律领域中的基于学习的TS。在这里，我们介绍了一种无监督的法律文本简化方法（USLT）。 USLT通过替换复杂的单词和分裂长句子来执行特定于域的TS。为此，USLT检测句子中的复杂单词，通过掩盖转换器模型生成候选者，并根据等级分数选择替代的候选者。之后，USLT递归将长句子分解为较短的核心和上下文句子的层次结构，同时保留语义含义。我们证明，USLT在文本简单性中优于最先进的域总TS方法，同时保持语义完整。

translated by 谷歌翻译

HTML版本

Localization supervision of chest x-ray classifiers using label-specific eye-tracking annotation

Ricardo Bigolin Lanfredi , Joyce D. Schroeder , Tolga Tasdizen

分类：计算机视觉

2022-07-20

卷积神经网络（CNN）已成功应用于胸部X射线（CXR）图像。此外，已证明注释的边界框可以改善CNN的可解释性，以定位异常。但是，只有几个相对较小的CXR数据集可用，并且收集它们非常昂贵。在放射科医生的临床工作流程期间，可以计时地，可以以非侵入性的方式收集眼睛跟踪（ET）数据。我们使用从放射科医生记录的ET数据，同时要求CXR报告训练CNN。我们通过将它们与关键字的命令相关联，并使用它们来监督异常的本地化，从而从ET数据中提取摘要。我们表明，此方法改善了模型的解释性，而不会影响其图像级分类。

translated by 谷歌翻译

COVID-19 Detection from Respiratory Sounds with Hierarchical Spectrogram Transformers

Idil Aytekin , Onat Dalmaz , Kaan Gonc , Haydar Ankishan , Emine U Saritas , Ulas Bagci , Haydar Celik , Tolga Cukur

分类：机器学习

2022-07-19

监测普遍的空气传播疾病，例如COVID-19的特征涉及呼吸评估。虽然听诊是一种症状监测的主流方法，但其诊断效用受到专用医院就诊的需求而受到阻碍。基于便携式设备上呼吸道声音的记录，持续的远程监视是一种有希望的替代方法，可以帮助筛选Covid-19。在这项研究中，我们介绍了一种新型的深度学习方法，可以将Covid-19患者与健康对照组区分开，鉴于咳嗽或呼吸声的音频记录。所提出的方法利用新型的层次谱图变压器（HST）在呼吸声的光谱图表示上。 HST在频谱图中体现了在本地窗口上的自我发挥机制，并且窗口大小在模型阶段逐渐生长，以捕获本地环境。将HST与最新的常规和深度学习基线进行比较。在跨国数据集上进行的全面演示表明，HST优于竞争方法，在检测COVID-19案例中，在接收器操作特征曲线（AUC）下达到了97％以上的面积。

translated by 谷歌翻译

Over-the-Air Federated Edge Learning with Hierarchical Clustering

Ozan Aygün , Mohammad Kazemi , Deniz Gündüz , Tolga M. Duman

分类：机器学习

2022-07-19

我们检查了通过直播（OTA）聚合的联合学习（FL），移动用户（MUS）旨在借助聚合本地梯度的参数服务器（PS）在全球模型上达成共识。在OTA FL中，MUS在每个训练回合中使用本地数据训练他们的模型，并以未编码的方式使用相同的频带同时传输其梯度。根据超级梯度的接收信号，PS执行全局模型更新。尽管OTA FL的通信成本显着降低，但它容易受到不利的通道影响和噪声的影响。在接收器侧采用多个天线可以减少这些效果，但是对于远离PS的用户来说，路径损失仍然是一个限制因素。为了改善此问题，在本文中，我们提出了一种基于无线的层次FL方案，该方案使用中间服务器（ISS）在MUS更密集的区域形成簇。我们的计划利用OTA群集聚合与MUS与其相应的IS进行交流，而OTA全球聚合从ISS到PS。我们提出了针对所提出算法的收敛分析，并通过对使用ISS的衍生分析表达式和实验结果的数值评估显示，与单独使用较少的传输功率相比，利用ISS的结果比单独的OTA FL具有更快的收敛性和更好的性能。我们还使用不同数量的群集迭代以及不同数据集和数据分布来验证性能的结果。我们得出的结论是，群集聚集的最佳选择取决于MUS和集群之间的数据分布。

translated by 谷歌翻译

GLEAM: Greedy Learning for Large-Scale Accelerated MRI Reconstruction

Batu Ozturkler , Arda Sahiner , Tolga Ergen , Arjun D Desai , Christopher M Sandino , Shreyas Vasanawala , John M Pauly , Morteza Mardani , Mert Pilanci

分类：计算机视觉

2022-07-18

展开的神经网络最近实现了最先进的MRI重建。这些网络通过在基于物理的一致性和基于神经网络的正则化之间交替来展开迭代优化算法。但是，它们需要大型神经网络的几次迭代来处理高维成像任务，例如3D MRI。这限制了基于反向传播的传统训练算法，这是由于较大的记忆力和计算梯度和存储中间激活的计算要求。为了应对这一挑战，我们提出了加速MRI（GLEAM）重建的贪婪学习，这是一种高维成像设置的有效培训策略。 GLEAM将端到端网络拆分为脱钩的网络模块。每个模块都以贪婪的方式优化，并通过脱钩的梯度更新，从而减少了训练过程中的内存足迹。我们表明，可以在多个图形处理单元（GPU）上并行执行解耦梯度更新，以进一步减少训练时间。我们介绍了2D和3D数据集的实验，包括多线圈膝，大脑和动态心脏Cine MRI。我们观察到：i）闪闪发光的概括以及最先进的记忆效率基线，例如具有相同内存足迹的梯度检查点和可逆网络，但训练速度更快1.3倍； ii）对于相同的内存足迹，闪光在2D中产生1.1dB PSNR的增益，而3D在端到端基线中产生1.8 dB。

translated by 谷歌翻译

Unsupervised Medical Image Translation with Adversarial Diffusion Models

Muzaffer Özbey , Salman UH Dar , Hasan A Bedel , Onat Dalmaz , Şaban Özturk , Alper Güngör , Tolga Çukur

分类：计算机视觉

2022-07-17

通过源至目标模态丢失图像的插图可以促进医学成像中的下游任务。合成目标图像的普遍方法涉及通过生成对抗网络（GAN）的单发映射。然而，隐式表征图像分布的GAN模型可能会受到样本保真度和多样性的有限。在这里，我们提出了一种基于对抗扩散建模Syndiff的新方法，以提高医学图像合成的可靠性。为了捕获图像分布的直接相关性，Syndiff利用条件扩散过程逐步将噪声和源图像映射到目标图像上。对于推断期间的快速准确图像采样，大扩散步骤与反向扩散方向的对抗投影结合在一起。为了对未配对的数据集进行培训，设计了一个循环一致的体系结构，并使用两个耦合的扩散过程，以合成给定源的目标和给定的目标。报告了有关联合竞争性GAN和扩散模型在多对比度MRI和MRI-CT翻译中的效用的广泛评估。我们的示威表明，Syndiff在定性和定量上都可以针对竞争基线提供出色的性能。

translated by 谷歌翻译

One Model to Unite Them All: Personalized Federated Learning of Multi-Contrast MRI Synthesis

Onat Dalmaz , Usama Mirza , Gökberk Elmas , Muzaffer Özbey , Salman UH Dar , Emir Ceyani , Salman Avestimehr , Tolga Çukur

分类：计算机视觉 | 机器学习

2022-07-13

基于学习的MRI翻译涉及一个合成模型，该模型将源对比度映射到目标对比图像上。多机构合作是跨广泛数据集培训合成模型的关键，但是集中式培训涉及隐私风险。联合学习（FL）是一个协作框架，相反，采用分散培训，以避免共享成像数据并减轻隐私问题。但是，成像数据的分布中固有的异质性可能会损害训练的模型。一方面，即使对于具有固定源目标配置的常见翻译任务，图像分布的隐式变化也很明显。相反，当规定具有不同源目标配置的不同翻译任务时，在站点内和跨站点内会出现明确的变化。为了提高针对域转移的可靠性，我们在这里介绍了MRI合成的第一种个性化FL方法（PFLSYNTH）。 PFLSYNTH基于配备映射器的对抗模型，该映射器会产生特定于单个站点和源目标对比的潜伏期。它利用新颖的个性化阻滞了基于这些潜伏期的发电机跨发电机图的统计和加权。为了进一步促进位点特异性，在发电机的下游层上采用了部分模型聚集，而上游层则保留在本地。因此，PFLSYNTH可以培训统一的合成模型，该模型可以可靠地跨越多个站点和翻译任务。在多站点数据集上进行的全面实验清楚地证明了PFLSHNTH在多对比度MRI合成中对先前联合方法的增强性能。

translated by 谷歌翻译

6D Camera Relocalization in Visually Ambiguous Extreme Environments

Yang Zheng , Tolga Birdal , Fei Xia , Yanchao Yang , Yueqi Duan , Leonidas J. Guibas

分类：计算机视觉

2022-07-13

我们提出了一种新颖的方法，可以可靠地估计相机的姿势，并在极端环境中获得的一系列图像，例如深海或外星地形。在这些挑战性条件下获得的数据被无纹理表面，图像退化以及重复性和高度模棱两可的结构所破坏。当天真地部署时，最先进的方法可能会在我们的经验分析确认的那些情况下失败。在本文中，我们试图在这些极端情况下使摄像机重新定位起作用。为此，我们提出：（i）一个分层定位系统，我们利用时间信息和（ii）一种新颖的环境感知图像增强方法来提高鲁棒性和准确性。我们广泛的实验结果表明，在两个极端环境下我们的方法有利于我们的方法：将自动的水下车辆定位，并将行星漫游者定位在火星样的沙漠中。此外，我们的方法仅使用20％的培训数据就可以在室内基准（7片数据集）上使用最先进的方法（7片数据集）实现可比性的性能。

translated by 谷歌翻译